你的浏览器版本过低,可能导致网站不能正常访问!为了您能正常使用网站功能,请使用这些浏览器。
chrome
Firefox

工具栏

极越打样,去激光雷达后高阶智驾怎么玩儿?

  • 作者: NE时代
  • 2024-03-28 16:47
  • 350

3月25日,极越北京举办了AI DAY 2024,同时迎来了极越01的第5次OTA。

此时,极越01正式上市还没有半年,可谓是月月更新。

当然,作为AI DAY,极越不仅发布了OTA V1.4.0新版软件,还阐述了其自动驾驶的逻辑和方法论,以及涉及自动驾驶、LD地图、人机交互领域的三项技术。

其中,在智能驾驶方面,百度Apollo自动驾驶视觉大模型VTA(Vision Takes All)的发布值得关注。

本文着重梳理VTA大模型为极越带来的能力提升,后续还会有此次AI DAY上,地图和智舱部分相关内容发布。

01

OCC占据网络能力持续迭代

极越方面称VTA大模型为基础大模型,并定义了其四大核心能力——动静态检测、时序跟踪、实时建图,以及场景理解等能力。在极越看来,这些能力的提升,进一步拉升了纯视觉高阶智驾的上限。

动静态检测方面,百度智能驾驶事业群组首席研发架构师、IDG技术委员会主席王亮表示,在极越OTA1.4.0阶段,OCC模型新增了超过1亿帧自动化、精标的数据,在视距上、识别的稳定性上,识别的范围和分辨率上都得到了显著的提升。

百度智能驾驶事业群组首席研发架构师、IDG技术委员会主席王亮

不同场景训练的模型可以提供行泊全场景的OCC能力服务。例如,狙击步枪模型,主打远视距,前向视距达到200米,分辨率为0.4米,最高的帧率可以达到30帧每秒;手枪模型,主打在复杂城市道路中远距离下博弈,前向视距能达到120米,整个分辨率格子是10厘米×10厘米×10厘米的一个立方体,最高帧率能达到20赫兹。

此外,还有一款称为匕首的occ占据网络,主打近距离的肉搏。比如在停车场景,车与车之间的距离,可能以厘米级计算的时候,研发人员可以调用这款模型来更好地处理交互。这款模型的前向视距达到30米,整个分辨率是5厘米,最高帧率10赫兹。

虽然是纯视觉,极越也希望将雷达三维能力转化到纯视觉的OCC模型占据网络上,从而获得全方位无盲区的视觉能力。因此,极越为每个OCC占据网络模型都配备了自己独特的导师—一款性能绝佳的激光雷达。例如狙击步枪模型,就是使用的激光雷达就是1550纳米的超长距激光雷达;在泊车场景近距离博弈场景使用的激光雷达,就是905纳米的补盲激光雷达,这样极越就在三维激光雷达增值数据的能力加持下,形成多场景行泊一体兼顾的模型群组。

02

时序跟踪能力明显提升

在王亮看来,时序跟踪大致有两个步骤,第一步是关联,通俗来讲,就是在这个世界里面不同时间阶段,这个障碍物下一秒会走到哪?这么多物体,谁跟谁是同一个物体。这个传统的方法比较简单,通过视觉识别物体身上的纹理,计算出纹理的相似度来识别。但是不可避免,有时会搞混,特别是在复杂场景人有遮挡的时候,就会跟不上。

第二步,根据跟踪再去计算这个障碍物的速度。采用Rule-based代表传统的方法,物体遮挡后很可能会跟丢;VTA网络采用的data-driven算法是通过数据驱动模型学习出来的,具备比较长的记忆能力,能够在消失之后,知道这还是之前见过的同一个物体,这是视觉能力的重大飞跃。

速度估计方面,传统的方法用距离除以时间得出速度,但是因为帧与帧之间只有1/10秒,分母太小,也就意味着如果在三维位置的估计上稍有不准,这个速度的值就会很跳变。

用传统方法算出来的障碍物速度,因为中间有遮挡等等原因,速度非常的不连续,决策规划达到一定速度,就很难做出一个正确的判断。但是通过端到端的机器学习,就可以持续输出一个相对稳定的速度估计,非常精准的一条速度估计曲线。

03

新增实时建图能力

此外,VTA网络新增了视觉的实时建图的能力。

极越的纯视觉的建图能力有几个大的特点,首先有非常丰富的道路元素感知能力,极越支持总共101类,建图场景需要识别的元素,基本覆盖了道路所有元素,例如鱼骨线,曲化道路,阶梯停止线,五岔路口等,都在识别范围内。

第二,非常精准的几何测距和建图的能力,结合之前在场景里面检测一些车道线的特征点,再通过后处理,把这些特征点组织起来拟合成曲线,用VTA网络直接去学习这个道路的结构,这个曲线不用再去做后处理的拟合,直接就从VTA网络里面吐出来,天然就是一条完整的车道线,非常便于后续的建图,使精度是达到厘米级。

第三,广泛的道路拓扑构建能力,能够发现和应对现实的变更,对地图的误差做冗余和消化的能力。

04

视觉场景阅读理解能力

VTA网络还增强了对视觉阅读理解能力。

人类能判断的一些事情,比如这个人是不是要穿过马路,还是他会老老实实的等红绿灯,还是说这个车到底是一个违停的车辆在路边,还是在排队等红绿灯,人是马上就能反应过来。但对算法来说,是一个比较难的问题,可能需要若干的小模型和一堆的if else的条件假设参数去做这样的判断。VTA网络通过video连续帧通过transformer,可以学习到很多道路参与者的意图。

极越也对决策规划算法进行了比较大的升级。现在极越采用一颗更深更广的决策树来对复杂城市场景里面的交互博弈进行处理。

按scaling laws的逻辑,随着模型大小、数据集大小和用于训练的计算浮点数的增加,模型的性能会提高。为了获得最佳性能,所有三个因素必须同时放大。当不受其他两个因素的制约时,模型性能与每个单独的因素都有幂律关系.

也就是说,为了获得更好的性能,模型和数据集都扩大,算力也需要增大。目前,百度已经投入到智驾计算的算力达到2.2Eflops的GPU算力,极越在上面插入了7个大模型,每个模型平均的参数达到了三亿。

05

数据精度高

在数据生产方面,王亮认为百度是行业里面最卷、精度最高的数据产线,百度的产能在大算力的支撑下,百倍于人工的标注,更重要的是质量也比人标的好。

数据质量上看,亿级4D高品质数据,静态场景重建的误差要控制在1厘米以内,角度误差2°以内,动态角度误差在1°以内等。

从百度给出的数据拟合图来看,与Nuscenes人工标注的数据相比,Apollo自动标注相对比,百度的重建精度要高于前者。

在王亮看来,这种误差其实并不能忽视,因为1°的偏差都可以让车辆多一次莫名的急刹。而且“百度的数据是将激光电源重建到这个每个物体上,不只是这一帧还要持续上叠加,让我们的这个精度通过不断的雕琢,变得越来越好。”

此外,百度大模型还会对数据引擎进行升级。通过打标签以及自然语言对数据进行筛选,挖掘出高价值数据,进行针对性的训练,有助于提升技术效率。

王亮认为,生成式AI还可以帮助解决长尾数据分布问题,例如不同采集车辆摄像头安装不同导致视角不同的问题,数据复用率低,生成式AI可以帮助数据进行视角统一;再例如,通过Driving Diffusion modle凭空生成几秒视频,通过定制化视频来解决长尾问题。

可以看出,百度认为,去激光雷达的高阶智驾,沿用传统的融合感知+高精地图方案天花板比较低,大模型、占用网络,甚至是未来的端到端大模型才是短期内看得到的终极路线。 以此为基础的极越,在国内车企中,占据了先发优势。

内容由作者提供,不代表易车立场

收藏

收藏成功 ! 去易车app查看收藏文章

猜你想看

+加载更多

活动推荐

广告
  • 奖 
  • 抢 
  • 奖 

相关车型

CopyRight © 2000-2023 BitAuto,All Rights Reserved. 版权所有 北京易车信息科技有限公司    购车咨询:4000-168-168 (周一至周日 9:00 – 21:00) 法定假日除外